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摘要 : 


[ 目的】 解决 电子 商务 平台 中 存在 的 虚假 交易 问题 。 


【方法 】 依据 消 费 者 历史 购买 和 评论 行为 数据 ,提出 


一 种 结合 深度 置信 网 络 和 模糊 集 的 虚假 交易 识别 方法 , 通过 识别 虚假 交易 的 用 户 ( 刷 客 ) 进 行 虚假 交易 的 识别 。 
[ 结果 ] 识别 准确 率 达 到 8996, 与 浅 层 机 器 学 习 模 型 试验 结果 进行 对 比 ,其 综合 性 能 有 明显 提升 。【 局 限 】 相对 于 
淘宝 存在 的 海量 刷 客 ,实验 数据 较 少 。 仅 以 淘宝 数据 作为 验证 数据 , 未 涉及 其 他 电子 商务 平台 。[ 结论 】 本 方法 


能 够 较 好 地 识别 刷 客 , 减少 电子 商务 中 的 虚假 交易 问题 。 
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目前 电子 商务 呈 快 速 发 展 态势 ， 交 易 金 额 不 断 扩 
X, 据 中 国电 子 商 务 研 究 中 心 统计 局， 截至 2014 年 底 
中 国 网 络 零售 交易 规模 达 2.82 万 亿 元 人 民 币 , 超过 美 
国 成 为 全 球 第 一 大 网 络 零售 市 场 。 巨 大 的 市 场 吸 引 着 
更 多 的 人 投入 到 电子 商务 市 场 中 。 据 赛 迪 网 统计 品 ， 截 
止 到 2013 年 底 淘宝 店铺 数量 达 900 万 家 , 同时 每 天 的 
在 线 商品 数 已 经 超过 8 亿 件 。 庞 大 的 商品 数量 和 商家 
数量 意味 着 激烈 的 竞争 , 为 了 使 店铺 和 商品 在 搜索 中 
排名 靠 前 , 吸引 消费 者 浏览 和 购买 ， 出现 了 依靠 虚假 
交易 提高 店铺 信誉 值 和 提高 商品 销量 的 欺诈 行为 。 在 
ÞE, 以 刷 单 为 目的 的 虚假 交易 行为 已 经 形成 庞大 的 
利益 链 ， 有 专门 提供 刷 单 服务 的 公司 为 卖家 提供 刷 单 
服务 , 为 了 增加 商品 销售 量 、 提 高 商家 以 及 商品 的 信 
誉 度 ， 刷 客 必须 给 卖家 好 评 ， 而 好 评 对 于 用 户 的 购买 
决策 会 产生 巨大 影响 , 并且 产品 的 评价 数量 也 决定 了 
用 户 在 商品 详情 页 停留 的 时 间 。 消 费 者 在 淘宝 进行 购 
物 时 ,也 多 以 产品 销量 和 产品 评论 为 主要 依据 ,进行 
商品 的 选择 。 但 是 虚假 的 销量 和 评论 会 对 消费 者 的 购 
买 决策 产生 巨大 的 误导 作用 ,严重 损害 消费 者 的 利 


益 。 因 此 识别 虚假 交易 和 虚假 评论 对 电子 商务 的 健康 
发 展 具有 重要 的 意义 。 


2 文献 综述 


虚假 评论 是 虚假 交易 中 的 重要 组 成 部 分 ， 虚假 评 
论 是 指 不 以 事实 为 依据 ,对 商品 给 予 正面 积极 的 评论 
以 促进 该 产品 的 销售 ， 或 者 给 予 商品 负面 消极 的 评论 
以 破坏 产品 的 名 声 。 目 前 , 对 虚假 评论 的 识别 研究 主 
要 有 两 个 方向 : 直接 从 评论 本 身 出 发 识别 虚假 评论 ; 
通过 识别 虚假 评论 发 布 者 识别 虚假 评论 。 所 采用 的 识 
别 方法 则 主要 是 支持 向 量 机 (SVM)、K 最 近邻 算法 
(KNN)、 人 工 神经 网 络 (ANN) 等 有 监督 学 习 算 法 , 虽然 
可 以 达到 不 错 的 分 类 效果 , 但 是 需要 大 量 的 标记 数据 
集 进 行 训练 , 耗费 了 大 量 的 人 工 成 本 。 并 且 特 征 的 选 
择 同 样 会 对 识别 结果 产生 影响 。 

在 基于 评论 本 身 的 虚假 识别 方面 Jindal 等 王将 
垃圾 评论 分 为 虚假 评论 、 无 关 评论 和 非 评论 信息 三 种 ， 
并 且 通 过 检测 意外 规则 和 规则 聚 类 提出 识别 可 疑 评论 
的 方法 。Ott 等 外 采用 标准 词 和 词性 N-gram 特征 对 来 自 
Amazon Mechanical Turk 的 虚假 评论 和 来 自 Tripadvisor 
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.com 的 非 虚 假 评论 进行 监督 学 习 , 利用 SVM 对 特征 进 
行 分 类 ， 从 而 识别 出 虚假 评论 。 任 亚 峰 等 四 认为 虚假 评 
论 与 真实 评论 在 语言 结构 和 情感 极 性 上 存在 差异 ， 提 
出 基于 遗传 算法 ， 对 语言 结构 及 情感 极 性 特征 进行 优 
化 选择 ,并 利用 选取 的 特征 结合 硬 、 软 聚 类 算法 对 虚 
假 评 论 进行 识别 。 Feng 等 "使 用 基于 概率 的 上 下 文 无 
关 句 法 文体 学 规则 特征 识别 虚假 评论 ,用 SVM 分 类 
器 进行 真实 与 虚假 文本 分 类 ,并 在 标准 数据 集 上 进 
行 验证 。 

除了 针对 评论 本 身 的 研究 外 ,也 有 学 者 根据 评论 
者 的 评论 行为 特征 进行 虚假 评论 的 识别 ，Fei 等 外 通过 
研究 评论 的 集中 爆发 鉴别 虚假 评论 者 。 他 们 认为 在 同 
一 爆发 周期 内 出 现 的 评论 有 相同 的 特性 , 这 些 评论 或 
全 由 虚假 评论 者 发 布 , 或 全 由 真实 评论 者 发 布 , 基于 
此 推断 评论 者 是 否 为 虚假 评论 者 ,Lim 等 中 通过 评论 者 
异常 打分 行为 识别 虚假 评论 者 ,， 若 评论 者 对 商品 连续 
进行 过 高 或 过 低 的 打分 , 其 为 虚假 评论 者 的 可 能 性 越 
大 。Jiang 等 总结 了 垃圾 评论 者 的 两 种 行为 模式 : 短 


卷 积 神经 网 络 (CNNs) 以 及 传统 的 有 监督 浅 层 学 习 模 
型 ， DBN 作为 半 监 督 深度 学 习 模 型 ， 可 以 采用 大 规模 
无 标签 的 样本 集合 ,为 DBN 训练 提供 大 量 的 样本 ,省 
去 了 标注 大 量 样本 的 时 间 , 并 且 其 无 监督 学 习 过 程 能 
够 学 习 到 更 准确 的 特征 ,克服 了 局 部 最 优 的 局 限 。 其 
次 DBN 作为 深层 网 络 学 习 结 构 , 能 够 学 习 抽象 特征 ， 
弱化 浅 层 结构 的 错误 特征 ， 从 而 提高 模型 分 类 效果 和 
缓解 过 拟 合 现象 。 另 外 ,同样 作为 深度 学 习 模 型 的 卷 
积 神经 网 络 "是 为 识别 二 维 图 像 而 特殊 设计 的 一 个 
多 层 感知 器 , 在 图 像 处 理 方面 具有 众多 优势 , 却 不 适 
合 本 文 场景 。 

深度 学 习 模拟 人 脑 的 机 制 解释 数据 ， 其 分 层 理论 
就 是 基于 神经 科学 , 较 低 的 层次 学 习 和 处 理 较 初级 的 
输入 , 其 结果 会 送 入 较 高 的 层次 ， 较 高 的 层次 进而 学 
习 较 高 级 的 特征 。 在 Zeki 0 的 研究 中 ,知识 来 源 于 先 
天 继承 或 者 后 天 获取 ,先天 继承 的 知识 是 不 可 变 的 ， 
但 是 获取 知识 的 先兆 和 预先 对 事物 的 假设 会 对 人 类 有 
用 , 后 天 获取 的 知识 可 以 通过 经 验 以 及 内 在 无 意识 的 


时 期 内 对 某 一 商品 进行 持续 评论 和 商品 的 实际 购买 量 
相对 于 用 户 对 商品 的 好 评 严重 不 符 。 通 过 分 析 用 户 评 
价 行为 和 对 商品 评价 的 偏差 分 析 识 别 垃圾 评论 。 
从 以 上 总 结 中 可 知 , 前 人 主要 从 被 评论 的 主体 人 
F, 对 其 所 有 评论 信息 进行 分 析 , 并 未 从 评论 者 在 某 
一 平台 的 所 有 历史 评论 数据 的 角度 入 手 , 研究 用 户 是 
和 否 为 虚假 评论 者 。 此 外 前 人 在 进行 虚假 评论 识别 方面 
采用 的 是 浅 层 机 器 学 习 模 型 ， 比 如 SVM KNN 等 , 这 


思考 方式 进行 进一步 的 修正 。 以 上 即 采 用 模糊 集 理论 
模拟 继承 知识 , 采用 DBN 模拟 后 天 获取 的 知识 的 动 
机 。 模 糊 集 是 描述 和 处 理 具有 不 确定 性 事物 和 现象 的 一 
种 数学 手段 , 将 人 们 认识 事物 从 传统 的 二 值 逻 辑 转换 
为 [0,1] 区 间 上 的 逻辑 ,可 以 广泛 应 用 于 模式 识别 中 四。 
在 模式 识别 中 采用 模糊 集 理论 ， 可 以 描述 事物 属于 一 
个 类 别 或 其 他 类 别 的 程度 中 。 在 进行 刷 客 识别 的 过 程 
中 , 将 用 户 “ 是 刷 客 ” 或 者 “不 是 刷 客 ” 的 逻辑 转换 为 隶 


些 模 型 为 有 监督 学 习 模 型 , 需要 大 量 有 标记 样本 进行 
学 习 , 会 耗费 大 量 人 工 标记 时 间 成 本 。 浅 层 模型 主要 
依靠 人 工 经 验 抽取 样本 的 特征 ， 而 模型 主要 是 负责 分 
类 或 预测 , 在 运用 模型 不 出 差错 的 前 提 下 ,特征 的 好 
坏 成 为 整个 系统 性 能 的 瓶颈 C。 与 传统 的 浅 层 学 习 不 
E, 深度 学 习 通 过 逐 层 特征 谈 换 ,将 样本 在 原 空间 的 
特征 表示 变换 到 一 个 新 特征 空间 ， 从 而 使 分 类 或 预测 
更 加 容易 , 展现 了 强大 的 从 少数 样本 集中 学 习 数 据 集 
本 质 特 征 的 能 力 中 。 对 于 深度 学 习 的 研究 则 多 集中 于 
语音 识别 趾 、 自 然 语 言 处 理 (4 和 图 像 处 理 (" 等 领域 。 
深度 置信 网 络 (DBN) 是 由 若干 层 无 监督 的 受 限 玻 兹 
曼 机 (RBM) 和 一 层 有 监督 的 反 向 传播 网 络 (BP) 组 成 
的 一 种 深层 神经 网 络 ， 是 深度 学 习 中 的 一 种 机 器 学 习 
JUS 相对 于 较 早出 现 的 有 监督 深度 学 习 模 型 一 一 


BE, 在 深度 学 习 中 引入 模糊 集 概念 ， 可 以 有 效 提高 
预测 的 准确 度 。 其 中 Fu 等 中 在 中 文 语句 级 语义 分 类 
中 引入 了 模糊 集 理论 , 采用 直接 方法 模型 化 情绪 极 性 
分 类 的 内 在 模糊 性 。 笔者 利用 DBN 和 模糊 集 , 提出 一 
种 结合 深度 置信 网 络 和 模糊 集 的 虚假 交易 识别 方法 ， 
并 与 浅 层 机 器 学 习 模 型 KNN 和 SVM 进行 性 能 对 比 。 


3 ”特征 提取 


为 了 进行 刷 客 的 识别 , 笔者 从 淘宝 评论 数据 中 分 
别 识别 出 刷 客 和 正常 用 户 , 并 利用 其 三 个 月 的 评论 和 
购买 数据 进行 特征 提取 。 在 淘宝 网 中 , 对 卖家 和 买 家 
有 着 相似 的 信用 评价 指标 , 分 别 是 商家 信用 积分 和 买 
家 信用 积分 。 这 只 是 描述 买 家 和 卖家 的 两 个 简单 的 评 
价 标 准 ， 并 不 能 准确 分 辨 出 正常 严 家 和 刷 客 ,因此 和 需 
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要 提取 出 其 他 衍生 属性 对 用 户 的 行为 进行 描述 ,以 便 
准确 定义 真实 用 户 和 刷 客 。Whitrow 等 所 指出 不 同 的 
统计 时 间 周 期 会 对 统计 模型 产生 关键 的 影响 , 过 短 的 
时 间 周 期 会 导致 不 能 捕获 到 足够 的 消费 者 的 消费 和 评 
论 历史 , 太 长 的 时 间 周 期 又 会 产生 过 多 的 干扰 噪声 并 
且 可 能 隐藏 基 些 可 识别 的 相关 特征 。 因 此 适当 的 统计 
时 间 周 期 将 会 对 刷 客 的 识别 产生 重要 的 影响 。 

(DEF1: 注册 时 间 

注册 时 间 短 的 用 户 更 有 可 能 成 为 刷 客 。 由 于 刷 客 
本 身 也 是 消费 者 ,也 会 在 淘宝 进行 消费 活动 , 为 了 防 
止 由 于 刷 单 被 惩罚 ,往往 会 额外 注册 一 个 账号 进行 刷 
单 活动 , 即使 由 于 刷 单行 为 被 惩罚 也 不 会 影响 自己 的 
正常 消费 , 降低 了 惩罚 的 成 本 。 以 用 户 注 册 时 间 至 收 
集 到 的 用 户 最 后 一 条 评论 的 时 间距 离 作 为 用 户 的 特征 
度量 。 

(2) F2: 实名 认证 状态 

未 实名 认证 的 用 户 更 有 可 能 成 为 刷 客 。 实 名 认证 
可 以 更 好 地 保障 用 户 的 资金 安全 ,可 以 更 方便 地 进行 
消费 活动 以 及 出 现 质量 和 服务 争端 时 保障 自己 的 利 
益 , 因此 正常 消费 者 大 多 会 进行 实名 认证 。 刷 客 并 不 
以 消费 为 目的 ,为 了 保护 自己 的 个 人 信息 , 往往 不 会 
进行 实名 认证 ， 即 使 在 被 发 现 虚 假 交易 行为 时 ， 匿名 
状态 也 可 以 很 好 地 隐藏 自己 。 以 0 代表 用 户 未 进行 实 
名 认证 ,1 代表 用 户 已 进行 实名 认证 作为 用 户 的 特征 
度量 。 

(3) F3: 商品 类 别 总 数 

购买 商品 类 别 越 多 的 用 户 , 越 有 可 能 是 刷 客 。 刷 
客 会 为 了 客户 的 需求 ,购买 客户 所 要 求 的 商品 ,， 并 不 
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(6) F6: 单 日 评论 数 

平均 每 天 评论 较 多 的 人 更 有 可 能 是 刷 客 。 为 了 协 
助 商家 欺骗 消费 者 并 且 使 虚假 交易 显得 更 加 真实 刷 
客 每 完成 一 笔 虚 假 交易 ， 都 会 对 商品 进行 评论 ， 因此 
在 一 定时 期 内 , 刷 客 平均 每 天 的 评论 数 会 高 于 普通 用 
户 。 以 收集 到 的 最 后 一 条 评论 的 时 间 为 节点 , 统计 用 
户 过 去 一 个 月 平均 每 个 购买 日 评论 商品 的 数目 作为 用 
户 的 特征 度量 。 

(7) F7: 单 月 评论 数 

以 收集 到 的 最 后 一 条 评论 的 时 间 为 节点 , 统计 用 
户 过 去 三 个 月 平均 每 月 评论 商品 的 数目 作为 用 户 的 特 
征 度量 。 

(8) F8: 重复 评论 率 

重复 评论 率 越 高 的 人 越 有 可 能 是 刷 客 。 刷 客 以 完 
成 的 虚假 交易 数量 为 获取 利益 的 标准 , 并 且 在 对 商品 
进行 评论 时 采用 的 是 刷 单 中 介 提 供 的 评论 内 容 , 因此 
刷 客 的 重复 评论 率 要 高 于 普通 用 户 。 以 收集 到 的 最 后 
一 条 评论 的 时 间 为 节点 , 统计 重复 评论 数 与 评论 总 数 
的 比值 作为 用 户 的 特征 度量 。 

(9) F9: 有 内 容 评论 率 

有 内 容 评论 率 越 高 的 人 越 有 可 能 是 刷 客 。 评 论 是 
刷 客 在 进行 虚假 交易 过 程 中 的 一 个 必须 的 步骤 ,因此 
刷 客 的 有 内 容 评论 率 往往 要 高 于 普通 用 户 。 以 收集 到 
的 最 后 一 条 评论 的 时 间 为 节点 , 统计 评论 者 评论 总 数 
与 评论 者 信用 积分 的 比值 作为 用 户 的 特征 度量 (其 中 
评论 者 评论 不 包括 匿名 评论 和 系统 默认 好 评 )。 

(10) F10: 重复 商家 率 

经 常 从 同一 商家 购买 商品 的 用 户 更 有 可 能 是 刷 


以 自己 的 真实 购买 意愿 影响 购买 行为 ,因此 在 一 定时 
期 内 其 购买 的 商品 类 别 会 高 于 正常 的 用 户 。 以 收集 到 
的 最 后 一 条 评论 的 时 间 为 节点 , 统计 用 户 的 购买 商品 
类 别 总 数 作为 用 户 的 特征 度量 。 

(4) F4: 单 日 购买 商品 类 别 数 

以 收集 到 的 最 后 一 条 评论 的 时 间 为 节点 , 统计 用 
户 过 去 一 个 月 平均 每 个 购买 日 购买 商品 类 别 的 数目 作 
为 用 户 的 特征 度量 。 

(5) F5: 评论 长 度 

评论 字数 差异 较 大 的 人 都 有 可 能 是 刷 客 。 以 评论 
者 所 有 评论 字数 之 和 与 评论 总 数 的 比值 作为 用 户 的 特 
征 度量 。 


现代 图 书 情报 技术 


客 。 新 商家 为 了 达到 增加 店铺 信誉 值 的 目的 ,会 雇佣 
刷 客 多 次 进行 虚假 交易 ,因此 刷 客 的 购买 记录 中 就 出 
现 商家 重复 率 高 的 情形 。 以 收集 到 的 最 后 一 条 评论 的 
时 间 为 节点 , 统计 重复 商家 数 与 购买 商家 总 数 的 比值 
作为 用 户 的 特征 度量 。 

(11) F11: 消费 者 信用 积分 日 增长 率 

信用 积分 增长 快 的 用 户 更 有 可 能 是 刷 客 。 买 家 信 
用 积分 累积 是 针对 订单 中 的 每 一 项 商品 的 ， 即 订单 交 
DRIE, 卖家 可 以 针对 其 中 的 每 一 项 商品 给 买 家 做 
出 评价 , 不 同 的 评价 会 对 消费 者 的 信用 积分 有 不 同 额 
度 的 增加 。 刷 客 以 刷 单 作为 一 利 方式 , 为 了 获取 更 多 
的 利益 会 进行 较 多 的 虚假 交易 ， 其 信用 积分 增长 速度 
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会 高 于 正常 的 消费 者 。 以 平均 每 日 消费 者 信用 积分 作为 
用 户 的 特征 度量 , 其 值 等 于 消费 者 信用 积分 /注册 天 数 。 
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为 特征 的 检验 结果 显示 ， 显著 性 差异 明显 。 


组 统计 量 
(12)F12: 消费 者 信用 积分 月 增长 率 四 N 均值 WEE ”| 均值 的 标准 误 
» , . m 注册 天 数 1 120 1081.75 689.417 68.942 
以 平均 每 月 消费 者 信用 积分 作为 用 户 的 特征 度 2 120 1836.48 705.447 70.545 
yE TO 、 m 实名 认证 状态 1 1 48 50 0 
量 , 其 值 等 于 消费 者 信用 积分 /购买 总 月 数 。 I2 E ER EM E 
5 E x XL x » 商品 类 别 总 数 1 120 15.220000 1.5346503 .1534650 
1 是 对 数据 集 的 统计 性 描述 ， 利用 消费 者 的 购 2 120 | 11.038333 2.9425718 2942572 
买 行为 特征 揭示 虚假 交易 和 正常 交易 行为 的 不 同 。 以 单 日 购买 商品 类别 数 1 120 .422290 2076889 0267889 
"^ ) SEMEN E 2 120 .800067 .1983297 .0198330 
衍生 特征 “ 单 日 评论 数 ” 为 例 ， 其 中 虚假 交易 者 的 单 日 评论 长 度 1 130 | 21832474 | 18.2857907 | 18285781 
\ SAGE B ev x 2 120 | 20447872 | 10.8240392 1.0824038 
评论 数 均值 为 3.764382， AU re 于 正常 交易 者 单 H THE 单 日 评论 数 1 120 5.764382 4.7458898 .AT45890 
L ` R pa yo p x 2 120 2.350858 1.3349011 -1334901 
数 均值 2.350858， 约 为 正常 交易 者 的 2.45 倍 。 以 此 为 例 单 月 评论 数 1 |  120| 3067132 | 1.0319083 | .1031908 
延伸 至 消费 者 购买 的 其 他 行为 特征 , 均 可 发 现 其 在 数 " a | 120| ts00257 E | .0956094 
EEVROX 1 120 | 65.341080 | 39.4144899 3.9414490 
量 上 的 明显 不 同 T 2 120 | 11.254929 9.8180546 9818065 
"e em D. 有 内 容 评论 率 1 120 | 10.758702 2.8760318 .2876032 
图 2 是 消 费 者 行 寺 征 独 立 样 本 T 检 验 结果 。 其 中 2 120 4.311286 1.7474902 .1747490 
“注册 天 数 "方差 方程 Levene 检 验 结果 显示 EF 值 为 0.009， | 
Sig. 值 为 0.925， 表示 方差 齐 性 检验 没有 显著 差异 ， 故 消费 者 信用 积分 日 增长 率 1 120 1.988489 1.9271292 .1927129 
2 120 .523005 .5619758 .0561876 
在 均值 方程 的 T 检 验 结果 中 参照 第 一 行 数据 ， 其 中 1 120 | 264000000 | 2023434410 | 202348441 
! : 、 PNE P 2 120 | 147.661667 | 141.6899752 | 14.1689975 
Sig.=.000， 即 两 样本 均 数 差别 有 显 车 性 意义 。 其 他 行 
图 1 特征 汇总 统计 结 
独立 样本 检验 
方差 方程 的 上 evene 检验 均值 方程 的 1 检验 
EAR 8596 Sise] 
F Sig t df Sig. Gib 均值 差 值 标准 误差 值 下 限 ER 

注册 天 数 假设 方差 相等 .009 .925 -7.550 198 .000 -744.730 98.638 -939.246 -550.214 

假设 方差 不 相等 -7.550 | 197.895 .000 -744.730 98.638 -939.247 -550.213 

实名 认证 状态 假设 方差 相等 277.666 .000 -7.981 198 .000 -450 .056 -.561 -.339 

假设 方差 不 相等 -7.981 | 147.353 .000 -.450 .056 -.561 -.339 

商品 类 别 | 总 数 假设 方差 相等 52.837 -000 12.600 198 .000 4.1816667 .3318717 | 3.5272099 4.8361234 

假设 方差 不 相等 12.600 | 149.146 .000 4.1816667 3318717 | 3.5258881 4.8374442 

单 日 购买 商品 闪 别 数 假设 方差 相等 21.527 .000 | -11.338 198 .000 -.3777772 .0333155 | -4434758 -.3120785 

假设 方差 不 相等 -11.339 | 182.521 .000 -.3777772 .0333155 -.4435101 -.3120442 

评论 长 度 假设 方差 相等 6.904 .008 .652 198 .515 1.3846025 | 2.1249234 | -2.8057836 5.5749887 

RRETHE .652 | 160.791 .516 1.3846025 | 2.1249234 | -2.8117548 5.5809599 

单 日 评论 数 RiR rE 7.575 .006 6.924 198 .000 3.4135243 .4930054 | 2.4413090 4.3857395 

假设 方差 不 相等 6.924 | 114.567 .000 3.4135243 .4930054 | 2.4369363 4.3901123 

单 月 评论 数 假设 方差 相等 23.992 .000 | 12531 198 .000 1.4688745 .1172181 | 1.2377184 1.7000307 

假设 方差 不 相等 12.531 | 152.019 .000 1.4688745 4172181 1.2372878 1.7004614 

重复 评论 宁 假设 方差 相等 98.286 .000 13.316 198 .000 54.0861310 4.0618917 | 46.0760095 62.0962524 

假设 方差 不 相等 13.316 | 111.239 .000 | 54.0861310 | 4.0618917 | 46.0374117 | 62.1348502 

有 内 容 评论 军 假设 方差 相等 12.486 -000 19.158 198 .000 6.4474167 3385305 | 57837725 7110608 

假设 方差 不 相等 19.158 | 163.330 .000 6.4474167 .3365305 | 5.7829052 74119281 

ERGE 假设 方差 相等 11.332 -001 4.058 198 .000 .3203622 .0789375 1646961 .4760283 

假设 方差 不 相等 4.058 | 103.652 .000 .3203622 .0789375 .1638200 4769044 

IBEREISRHUDBSÉESS — 假设 方 莽 相等 45.824 .000 7.300 188 .000 1.4654837 .2007397 | 1.0696214 1.8613459 

假设 方差 不 相等 7.300 | 115.717 .000 1.4654837 2007387 | 1.0678831 1.8630843 

IBEREIBRHUIOHSÉE: — 假设 方差 相等 21.128 -000 4.710 198 .000 | 116.3383333 | 24.7020074 | 67.6255429 | 165.0511238 

假设 方差 不 相等 4710 | 177.269 .000 | 115.3383333 | 24.7020074 | 67.5904884 | 165.0861783 


图 2 特征 向 量 工 检验 结果 


4 识别 方法 

深度 置信 网络 (DBN) 是 目前 研究 和 应 用 都 比较 广 
泛 的 深度 学 习 结构 ， 由 一 系列 受 限 波 尔 兹 曼 机 (RBM) 
单元 组 成 。 模 糊 集 是 描述 和 处 理 具 有 不 确定 性 事物 和 


现象 的 一 种 数学 手段 ,在 深度 学 习 中 引入 模糊 集 概念 ， 
可 以 有 效 提高 预测 的 准确 度 。 

用 x 表示 用 户 集 X 中 的 用 户 , 用 户 集 X 则 可 以 表 
示 为 : X=[x!,…, xFT], Hop x=[x1,…, xp]; R 表示 训练 
用 户 的 数目 , T 表示 测试 用 户 的 数目 ，D 表示 用 户 特 
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TEŽE JH Y Sez LG biennio, 则 
可 以 表示 为 : Y=[y …, y, 其 中 y=[y1…, yd, c 表示 
分 类 的 数目 。 

深度 置信 和 网络 训练 的 基本 思想 是 一 种 半 监 督 贪 梦 
学 习 算 法 。 模 型 训练 过 程 主要 分 为 两 步 : 

(1) 分 别 单独 地 无 监督 训练 每 一 层 RBM 网 络 。 
用 未 包含 标注 信息 的 训练 数据 训练 第 一 层 RBM 网 
络 , 它 由 输入 层 h" 和 第 一 层 隐 含 层 h 组 成 , 输入 层 接 
收 的 是 原始 的 特征 向 量 , 训练 时 先 学 习 输 入 层 和 第 
一 层 隐 含 层 之 间 的 参数 we s 当 训 练 好 第 一 层 RBM 网 
络 后 , 将 第 一 层 RBM 网 络 的 隐 含 层 h 作为 第 二 层 
RBM 网 络 的 可 视 层 ， 与 第 二 层 隐 含 层 bY 组 成 第 二 层 
RBM 网 络 .第 一 层 RBM 网 络 的 输出 等 于 第 二 层 RBM 
网 络 的 输入 ， 继 续 无 监督 地 训练 第 二 层 RBM 网 络 的 
参数 w^. AHE, 在 学 习 得 到 第 N-1 层 RBM 网 络 后 ， 
将 第 N-1 层 RBM 网 络 的 输出 作为 第 N 层 RBM 网 络 
的 输入 , 训练 第 N 层 RBM 网 络 的 参数 wx,， 由 此 可 以 
初始 化 DBN 网 络 中 各 隐 含 层 之 间 的 参数 空间 
We[wl,---, wh]. 

Q) 当 完 成 逐 层 训练 学 习 后 , 利用 BP 网 络 对 整个 
DBN 网 络 进 行 有 监督 反馈 微调 ,根据 输入 特征 向 量 和 
顶层 降 维 表示 传递 之 后 的 重 构 特 征 向 量 之 间 的 误差 ， 
对 整个 网 络 权 值 进行 微调 。 即 将 错误 信息 反 向 传递 至 
所 有 RBM 网 络 , 微调 RBM 网 络 层 间 的 参数 。 最 后 的 
结果 即 是 DBN 网 络 的 最 优 参数 它 …。 

对 于 刷 客 识别 ,采用 模糊 集 描 述 用 户 “ 是 刷 客 ?或 
者 “不 是 刷 客 ” 的 隶属 度 ， 其 中 模糊 集 A 和 B 可 以 由 以 
下 进行 描述 中: 

用 X 表 示 用 户 集 , RU] X 中 的 元 素 x 表示 用 户 集 中 
的 单个 用 户 , X 中 的 正 向 模糊 集 A 可 以 通过 隶属 度 函 
数 ua(x) 进 行 表示 , 其 中 (x) e[0,1], 表示 A 中 x 属于 
刷 客 的 程度 。 负 向 模糊 集 B 可 以 通过 隶属 度 函 数 Lep(x) 
进行 表示 ,其 中 ps (x) e[0,1], 表示 B 中 x 不 属于 刷 客 
的 程度 。 两 个 隶属 度 函 数 ha(x) 和 pe(x) 都 是 通过 深度 结 
构 第 N 层 的 结果 hpN(x) 进 行 计算 。 

关于 刷 客 的 最 终 识别 ， 只 有 两 个 类 ， 即 “是 刷 客 ” 
或 “不 是 刷 客 ”， 所 以 深度 学 习 第 NN 层 h(x) 的 维度 应 该 
是 2, 类 分 界线 为 hn =h》。h"(x') 与 分 界线 之 间 的 距 
离 可 以 表示 为 d(xi)=(hN(xi)-hN(xi))/V2 ， 如 果 
d(x) 20, x 就 是 刷 客 , 否则 x 就 不 是 刷 客 。 
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隶属 度 函 数 uAC9O 和 hsGC9 同 距离 dCG9) 的 关系 可 以 用 
以 下 公式 的 表示 : 


.a |S(d(x);y—B,y—B/2,Y) d(x) € y 
psp d(x)Z y (1) 
(x. «| T di 
Hav | says B/ZTKB) do)mT c 


在 识别 过 程 中 , 需要 估计 两 个 参数 B 和 y 的 值 , TE 
图 3 中 B=2, y=1。 由 图 3 可 知 , y 是 ua(x) 二 1 和 wa(x)=1 
的 分 界 点 (-y 是 up(x)=1 和 je(x) 二 1 的 分 界 点 )。B 是 pa(x) 
从 0 变化 到 1 的 距离 d(x), 同时 也 是 pp(x) 从 0 变化 到 1 
的 距离 。 因 此 可 以 统计 所 有 用 户 x 的 距离 d(x) 的 值 来 
估计 B 和 y 的 值 . 对 于 基于 DBN 的 刷 客 识别 可 以 由 以 下 
公式 描述 : 


y2max|d(x))i2l--,R4T (3) 
B=5xy 5 之 2 (4) 
其 中 , 5 表示 “是 刷 客 ?或 “不 是 刷 客 ” 分 界 度 的 常数 ， 
可 以 根据 不 同 的 数据 做 具体 的 调节 。 


1.0 
0.8r 


图 3 隶属 度 函 数 HACO 和 haCo 


依据 公式 G) 和 公式 (4) 估 计 模 糊 参数 ， 建 立 深度 结 
构 。 利 用 L 个 已 经 标记 的 数据 和 隶属 度 函 数 hACO 和 
hp(X) 再 次 优化 参数 空间 W 以 提升 判别 的 准确 度 , 图 4 
是 采用 模糊 集 概念 的 第 N—1 层 的 描述 ,以 隶属 度 函 数 
haCO 和 haGCoO 作 为 输入 函数 。 


Mu), OD K, Q9) 


是 刷 容 不 是 刷 客 
图 4 模糊 层 hx 层 的 描述 


5 实验 及 结果 分 析 


为 了 验证 本 文 提出 的 识别 方法 的 性 能 ， 从 淘宝 平 

台 收 集 用 户 的 购买 数据 , 包括 用 户 的 性 别 、 注 册 天 数 、 

信用 积分 、 实 名 认证 状态 、 购 买 商品 名 称 、 评 论 内 容 、 

用 户 对 商品 评分 和 评论 时 间 。 其 中 在 收集 数据 过 程 中 ， 

为 了 满足 训练 集 的 要 求 , 需要 收集 已 经 确定 的 刷 客 的 

数据 。 由 于 电子 商务 的 发 展 , 刷 单 已 经 成 为 一 条 庞大 

的 利益 链 , 其 中 比较 大 型 的 中 介 平 台 包 括 双赢 网 、 百 

利 网 、 刷 客 网 等 , 它们 通过 发 布 商家 订单 信息 和 任务 

要 求 获取 利润 。 为 了 获取 真实 的 刷 客 信息 , 笔者 根据 

以 上 平台 发 布 的 订单 信息 进入 参与 刷 单 的 店铺 , 根据 

一 刷 单 的 任务 要 求 从 商品 评论 信息 中 找到 刷 单 用 户 。 收 

— o0 集 到 用 户 信息 之 后 , 通过 淘宝 查询 网 站 淘 大 客 对 

用 户 的 基本 信息 和 历史 评论 信息 进行 收集 。 对 于 正常 

N 用 户 的 数据 收集 ,笔者 选择 天 猫 店铺 中 信誉 度 高 、 影 

c 响 力 大 , 不 需要 通过 刷 单 提高 影响 力 的 店铺 (比如 耐克 

-官方 旗舰 店 、 小 米 官方 旗舰 店 等 ) 从 店铺 的 热 销 商品 

T 的 评论 页 面 中 选取 未 匿名 评论 用 户 ， 从 淘 大 客 中 搜索 

— 该 用 户 的 历史 评论 信息 ,如 果 该 用 户 评论 信息 正常 

比如 评论 内 容 客观 、 重 复评 论 少 并 且 未 出 现 短期 内 大 
量 评论 的 行为 , 即 可 判定 此 用 户 为 正常 用 户 。 

在 模糊 集中 , 参数 8 表示 “是 刷 客 "或 “不 是 刷 客 ” 的 

分 界 度 , 不 同 的 值 会 影响 准确 率 , 为 了 找到 最 优 的 &, 

分 别 使 用 不 同 的 值 对 数据 进行 测试 , 其 测试 结果 如 图 


5 所 示 : 
1.0 
0.9 
is 0.8 wc. 
m 
Es 0.7 
0.6 
0.5 
1 2 3 4 5 6 7 
is 
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其 中 第 一 行 未 重合 的 实心 点 表示 将 正常 用 户 误 识别 为 
ME, 第 二 行 未 重合 的 实心 点 表示 将 刷 客 误 识别 为 正 
常用 户 。 
1.5 
刷 客 1.0 jemeeeeeeeeereeoeeeeeereeeeeeeeeieeeeeeeseieeeceeeeoc -| 
e 预测 测试 集 分 类 
6@5 p o 实际 测试 集 分 类 - 
0 
-0.5 
正常 -1.0  ————————— 
HP 
1.5 


0 10 20 30 40 50 60 70 80 90 100 
图 6 测试 集 的 实际 分 类 和 预测 分 类 对 比 

AE 6 中 可 以 看 出 其 中 有 11 个 用 户 识别 错误 ,其 
准确 率 达 到 89%。 本 文采 用 分 类 器 中 最 党 用 的 评测 指 
标 : 准 确 率 (Accuracy) 、 精 确 率 (Precision) 、 召 回 率 
(Recall) 作 为 刷 客 识 别 的 评判 标准 ,在 进行 评价 的 过 程 
中 将 精确 率 和 召回 率 结 合 在 一 起 , 使 用 F-score 进行 性 
能 的 评价 


| TP] - | TN| 
Accuracy — 
| TP | - | EP | - | TN | - | EN | 
Precision = MP 
|TP|+|FP| 
Recall = ES 
| TP | - | EN | 
2x Precision x Recall 
上 -Score = 


Precision + Recall 

其 中 ,|TP| 表 示 把 刷 客 正确 地 识别 为 刷 客 的 数量 ; 
|FP| 表 示 把 正常 用 户 错误 地 识别 为 刷 客 的 数量 。|TN| 
表示 把 正常 用 户 正确 地 识别 为 正常 用 户 的 数量 ; |FN| 
表示 把 刷 客 错误 地 识别 为 正常 用 户 的 数量 。 

其 分 析 结 果 如 表 1 所 示 。 与 另外 两 种 党 用 方法 
KNN 和 SVM 相 比 ,其 精确 率 略 低 , 但 是 F-score 明显 
高 于 两 者 , 其 性 能 有 明显 提高 。 

表 1 DBN 和 SVM、KNN 分 类 方法 的 性 能 对 比 


从 图 5 中 可 以 清楚 地 看 出 ， 当 &=3 时 识别 准确 率 
最 高 为 89%， 因 此 在 本 文选 取 &E=3。 
图 6 中 数字 1 表示 刷 客 , -1 表示 正常 用 户 。 在 实 
验 中 选取 100 个 用 户 作 为 测试 集 ， 其 中 重合 的 点 表示 
正确 识别 的 用 户 , 未 重合 的 点 表示 识别 有 误 的 用 户 。 


Jk Accuracy RES 

Precision Recall F-score 
DBN 89% 84.21% 96% 89.72% 
KNN 78% 85% 68% 75.56% 
SVM 84% 85.42% 82% 83.68% 
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集 的 模糊 分 类 思想 , 在 训练 深度 结构 的 过 程 中 使 用 指 
数 损失 函数 最 大 化 类 别 的 分 离 性 。 其 次 , 采用 同样 的 
深度 结构 进行 模糊 参数 的 估计 和 刷 客 的 分 类 ,可 以 很 
好 地 提高 这 两 个 过 程 的 一 致 性 并 且 提高 刷 客 识别 的 性 
能 。 因 此 模糊 集 和 深度 置信 网 络 的 结合 提高 了 深度 结 
构 的 识别 能 力 。 


6 结 语 


本 文 提 出 结合 深度 置信 网络 和 模糊 集 的 虚假 交易 
识别 方法 ,主要 根据 虚假 交易 者 ( 刷 客 ) 的 行为 特征 ， 
从 海量 用 户 中 将 其 识别 出 来 , 认定 其 进行 的 交易 为 虚 
假 交 易 。 本 文 利用 用 户 的 历史 评论 和 交易 记录 , 提取 
可 以 表示 用 户 行为 的 12 个 特征 , 并 将 其 量化 。 其 次 根 
据 深度 置信 网 络 和 模糊 集 的 概念 , 构建 结合 深度 置信 
网 络 和 模糊 集 的 深度 结构 ,针对 用 户 是 否 为 刷 客 设 定 
一 个 模糊 集 ， 基 于 模糊 信息 对 深度 结构 进行 训练 以 提 
高 识别 能 力 。 为 了 验证 方法 的 可 行 性 ， 从 淘宝 平台 收 
集 用 户 的 历史 评论 和 交易 数据 作为 训练 和 测试 集 ， 对 
已 经 标记 的 用 户 数据 进行 训练 学 习 , 实验 显示 本 文 提 
出 的 方法 其 准确 率 、 精 确 率 、 召 回 率 、F-score 值 分 别 
达到 8996, 84.2196, 96% 和 89.72%， 识 别 效果 明显 优 于 
已 有 的 分 类 识别 方法 ， 对 识别 结果 有 明显 的 提升 ， 达 
到 了 识别 虚假 交易 的 目的 。 
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Combine Deep Belief Networks and Fuzzy Set for Recognition of 
Fraud Transaction 


Zhang Liyi Liu Chang 
(School of Information Management, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] To solve the problem of fraud transaction in e-commerce platform. [Methods] This paper 
proposes a method that combine Deep Belief Networks and fuzzy set based on consumers' purchase history and reviews. 
Through recognizing the users in fraud transactions—cheaters to recognize the fraud transactions. [Results] Tested by 
experiments using the data crawled from Taobao.com, the accuracy can be achieved 89%. Compared with the shallow 
machine learning model, the comprehensive performance improves significantly. [Limitations] In contrast with the 
huge normal users and the users in fraud transactions, the experimental data in the paper is relatively small. And the test 
data only from Taobao.com, lack of the data from the other e-commerce platform to be validated. [Conclusions] The 
users in fraud transactions can be identified by the method, and the fraud transaction in e-commerce can be reduced. 


Keywords: Fraud transaction Cheater recognition Product reviews Deep learning Fuzzy set 
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